Génération des prononciations de noms propres à l'aide des Champs Aléatoires Conditionnels (Pronunciation generation for proper names using Conditional Random Fields) [in French]
نویسندگان
چکیده
Dans cet article, nous proposons une approche de conversion graphème-phonème pour les noms propres. L'approche repose sur une méthode probabiliste : les Champs Aléatoires Conditionnels (Conditional Random Fields, CRF). Les CRFs donnent une prévision à long terme, n'exigent pas l'indépendance des observations et permettent l'intégration de tags. Dans nos travaux antérieurs, l'approche de conversion graphème-phonème utilisant les CRFs a été proposée pour les mots communs et différents paramétrages des CRFs ont été étudiés. Dans cet article, nous étendons ce travail aux noms propres. Par ailleurs, nous proposons un algorithme pour la détection de l'origine des noms propres. Le système proposé est validé sur deux dictionnaires de prononciations. Notre approche se compare favorablement aux JMM (Joint-Multigram Model, système de l'état de l'art), et tire profit de la connaissance de la langue d'origine du nom propre.
منابع مشابه
Automatic Detection of Document Organizational Structure from Visual and Lexical Markers (Détection automatique de la structure organisationnelle de documents à partir de marqueurs visuels et lexicaux) [in French]
Résumé. La compréhension d’un texte s’opère à travers les niveaux d’information visuelle, logique et discursive, et leurs relations d’interdépendance. La majorité des travaux ayant étudié ces relations a été menée dans le cadre de la génération de textes, où les propriétés visuelles sont inférées à partir des éléments logiques et discursifs. Les travaux présentés ici adoptent une démarche inver...
متن کاملConditional Random Fields for XML Applications
xml tree labeling is the problem of classifying elements in xml documents. It is a fundamental task for applications like xml transformation, schema matching, and information extraction. In this paper we propose xcrfs, conditional random fields for xml tree labeling. Dealing with trees often raises complexity problems. We describe optimization methods by means of constraints and combination tec...
متن کاملExtraction de propriétés de produits
RÉSUMÉ. Le travail présenté dans cet article vise à extraire automatiquement certaines caractéristiques de produits à partir de descriptions textuelles fournies par un site marchand. La constitution d’un corpus de référence annoté révèle certains problèmes, provenant à la fois des textes et des particularités de la tâche. Pour l’aborder, nous avons testé deux approches : une méthode d’extractio...
متن کاملAutomatic annotation of incomplete and scattered bibliographical references in Digital Humanities papers
In this paper, we deal with the problem of extracting and processing useful information from bibliographic references in Digital Humanities (DH) data. We present our ongoing project BILBO, supported by Google Grant for Digital Humanities that includes the constitution of proper reference corpora and construction of efficient annotation model using several appropriate machine learning techniques...
متن کاملSupervised learning on encyclopaedic resources for the extension of a lexicon of proper names dedicated to the recognition of named entities (Apprentissage supervisé sur ressources encyclopédiques pour l'enrichissement d'un lexique de noms propres destiné à la reconnaissance des entités nommées) [in French]
متن کامل
ذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2012